Introduction

Ce projet est réalisé dans le cadre de la matière Visualisation de données enseignée à l’Université de Technologie de Troyes.

Notre analyse porte sur le World Happiness Report, une enquête annuelle qui récolte des données du monde entier pour indiquer comment les gens évaluent leur propre vie dans plus de 150 pays du globe. Le but de notre projet est de concevoir les meilleures visualisations possibles pour analyser les données du World Happiness Report et pour mettre en valeur les informations qui en découlent.

Lien des datasets

Le dernier dataset apporte des indicateurs supplémentaires sur ce qui est susceptible de provoquer le bonheur des populations (prix de la vie, soleil, obésité…). Cependant, il ne comporte uniquement les données de 2021, ainsi nous pourrons seulement le comparer avec le dataset qui comporte les données du World Happiness Report de 2021. Cela nous permettra d’apporter une nouvelle dimension à notre analyse.

Données

Le jeu de données que nous avons choisi d’étudier est issu d’une enquête de référence sur l’état du bonheur dans le monde. Il comporte des données de 2015 à 2021, et classe 155 pays selon leur niveau de bonheur. Il permet d’établir une corrélation entre différents critères (liberté, corruption, cadre de vie…) et le niveau de bonheur qui en découle.

Les jeux de données initiaux comportent 13 variables :

Variable Class Description
country character Nom du pays
region character Région à laquelle le pays appartient
hapiness rank integer Classement du pays sur la base du score du bonheur
hapiness score double Un indicateur mesuré chaque année en posant aux personnes de l’échantillon la question suivante : “Comment évaluez-vous votre bonheur sur une échelle de 0 à 10 où 10 est le plus heureux”
lower confidence interval double Intervalle de confiance inférieur du score de bonheur
upper confidence interval double Intervalle de confiance supérieur du score de bonheur
economy (GPD per capita) double La mesure dans laquelle le PIB contribue au calcul du score du bonheur
family double La mesure dans laquelle la famille contribue au calcul du score du bonheur
health (life expectancy) double La mesure dans laquelle l’espérance de vie a contribué au calcul du score du bonheur
freedom double La mesure dans laquelle la liberté a contribué au calcul du score du bonheur
trust (governement corruption) double La mesure dans laquelle la perception de la corruption contribue au score de bonheur
generosity double La mesure dans laquelle la générosité a contribué au calcul du score de bonheur
dystopia residual double “Résidu” correspondant à l’écart entre le modèle théorique et la réalité, auquel on ajoute un score de dystopie (score d’un pays hypothétique moins bien classé que tous les autre)

Par la suite, nous avons ajouté plusieurs données nécessaires à la création de cartes : les coordonnées géographiques des pays, ainsi que leur géométrie, afin de pouvoir colorier les surfaces des pays sur les cartes.

L’ensemble des données utilisées est disponible dans le dossier /data/

Ces données nous semblent pertinentes dans le cadre d’une analyse car :

  • Elles sont analysables dans le temps
  • Elles sont analysables géographiquement
  • Elles permettent d’établir différents facteurs de contribution au bonheur en fonction des régions du monde, des cultures…

Plan d’analyse

  1. Analyse temporelle : Comment évolue le bonheur moyen au fil des années ? (en regroupant par région, en utilisant des facet charts pour visualiser les différentes années en même temps)

  2. Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ? Pourquoi ? ➡️ Utiliser les facteurs de contribution du score pour mettre en évidence des causes de disparité

  3. Le niveau de bonheur est-il directement corrélé à la liberté des individus ? ➡️ Question extensible à la richesse, à l’espérance de vie…

  4. Quelle combinaison de facteurs hauts entraîne une hausse du bonheur ? Quelle combinaison de facteurs bas entraîne une diminution de celui-ci ? (par exemple: avoir une espérance de vie élevée ET un PIB élevé ET un taux de liberté elevé implique-t-il nécessairement un haut niveau de bonheur, au-dessus d’un certain seuil ?)

Nettoyage des données

Le nettoyage des jeux de données est la première étape du projet, et certainement l’une des plus importantes. Nous nous en sommes rendus compte après avoir essayé de concevoir des graphiques avec les jeux de données bruts : nous avons été très vite restreints, d’un côté car il était impossible d’analyser les données temporellement car les données étaient séparées dans des datasets différents, et de l’autre parce que les noms des variables comportaient des espaces et différaient d’un dataset à l’autre.

Afin de pouvoir travailler efficacement, nous avons opéré le nettoyage suivant :

  1. Nous avons commencé par analyser tous les datasets pour voir si les données nommées de la même manière correspondent à la même chose (ce qui n’était pas toujours le cas). Parfois, la variable “freedom” d’un dataset correspondait à la variable “explained_by_freedom” d’un autre dataset.

  2. Nous avons ensuite renommé toutes les colonnes de tous les datasets de la même manière selon la convention définie ci-dessous.

  3. Nous avons fusionné l’ensemble des datasets de manière à travailler sur un seul tableau propre à l’aide de filtres par la suite. Nous avions au préalable ajouté une variable Year car cette donnée n’était pas fournie à l’intérieur des datasets et nous aurions mélangé toutes les données lors de la fusion des datasets.

  4. Afin de pouvoir travailler avec des cartes, nous avons été contraints d’ajouter pour chaque pays des données géométriques et GPS.

Convention de nommage des colonnes

  • Le nom des colonnes commence par une Majuscule
  • Les espaces sont remplacés par un underscore “_”

À savoir

Avant de commencer l’analyse détaillée du jeu de données, il y a quelques informations à connaître.

  1. Comme nous allons analyser le score de bonheur des régions, nous avons jugé utile de présenter la liste des pays de chaque région :
Region Countries
Australia and New Zealand Australia, New Zealand
Central and Eastern Europe Albania, Armenia, Azerbaijan, Belarus, Bosnia and Herzegovina, Bulgaria, Croatia, Czech Republic, Estonia, Georgia, Hungary, Kazakhstan, Kosovo, Kyrgyzstan, Latvia, Lithuania, Macedonia, Moldova, Montenegro, Poland, Romania, Russia, Serbia, Slovakia, Slovenia, Tajikistan, Turkmenistan, Ukraine, Uzbekistan
Eastern Asia China, Hong Kong, Japan, Mongolia, South Korea, Taiwan
Latin America and Caribbean Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Dominican Republic, Ecuador, Guatemala, Haiti, Honduras, Jamaica, Mexico, Nicaragua, Panama, Paraguay, Peru, Salvador, Suriname, Trinidad and Tobago, Uruguay, Venezuela
Middle East and Northern Africa Algeria, Bahrain, Egypt, Iran, Iraq, Israel, Jordan, Kuwait, Lebanon, Libya, Morocco, Oman, Palestinian Territories, Qatar, Saudi Arabia, Syria, Tunisia, Turkey, United Arab Emirates, Yemen
North America Canada, United States
Southeastern Asia Cambodia, Indonesia, Laos, Malaysia, Myanmar, Philippines, Singapore, Thailand, Vietnam
Southern Asia Afghanistan, Bangladesh, Bhutan, India, Nepal, Pakistan, Sri Lanka
Sub-Saharan Africa Angola, Benin, Botswana, Burkina Faso, Burundi, Cameroon, Central African Republic, Chad, Comoros, Congo (Brazzaville), Congo (Kinshasa),Djibouti, Ethiopia, Gabon, Ghana, Guinea, Ivory Coast, Kenya, Lesotho, Liberia, Madagascar, Malawi, Mali, Mauritania, Mauritius, Mozambique, Niger, Nigeria, Rwanda, Senegal, Sierra Leone, Somaliland región, South Africa, Sudan, Swaziland, Tanzania, Togo, Uganda, Zambia, Zimbabwe
Western Europe Austria, Belgium, Cyprus, Denmark, Finland, France, Germany, Greece,Iceland, Ireland, Italy, Luxembourg, Malta, Netherlands, North Cyprus, Norway, Portugal, Spain, Sweden, Switzerland, United Kingdom

I) Analyse temporelle : Comment évolue le bonheur moyen au fil des années ?

Intro de la partie…

Les visualisations réalisées

1. L’évolution du bonheur moyen dans le monde

Nous commencerons cette analyse par la visualisation du bonheur moyen au niveau mondial. La visualisation suivante est donc construite à partir de la moyenne globale des scores de bonheur de tous les pays chaque année.

<<<<<<< HEAD

Attention: on peut penser à première vue que la variation du bonheur moyen au fil des ans est importante. Il est important de prendre en compte l’échelle de l’axe des ordonnées : la variation est en réalité relativement faible, cette échelle ayant précisément été choisie pour qu’elle soit plus visuelle.

=======

Attention: on peut penser à première vue que les variations du bonheur moyen au fil des ans est importante. Il est important de prendre en compte l’échelle de l’axe: ces variations sont en réalité relativement faibles, cette échelle ayant précisément été choisie pour qu’elles soivent plus visuelles.

>>>>>>> c7c75064e14b028cfc3fb2baabdc796a4ac9f2f1

Ce graphique nous indique donc que le niveau moyen de bonheur dans le monde observe une tendance à la hausse, hormis une légère baisse en 2017. On peut cependant s’interroger sur la représentativité de ce résultat au vu de la moyenne globale effectuée. Qu’en est-il lorsque nous nous plaçons à l’échelle des différentes régions du monde?

2. L’analyse temporelle par régions du monde

Cette seconde visualisation s’attache à représenter l’évolution du bonheur moyen par région, chaque ligne représentant les données d’une région. On transforme pour cela nos données de sorte à les regrouper par année ET par région, puis on calcule la moyenne du score de bonheur par région. On obtient donc le score de bonheur moyen par an et par région, dont on peut observer l’évolution sur la visualisation suivante:

<<<<<<< HEAD
=======
>>>>>>> c7c75064e14b028cfc3fb2baabdc796a4ac9f2f1

On a ajouté à ces données par région la moyenne pour le monde. On peut donc effectuer simplement des comparaisons (en cliquant sur l’étiquette d’une région pour la faire apparaître/disparaître notamment) entre les différentes régions.

On se rend ici aisément compte qu’il ne fallait pas se contenter d’une moyenne globale, et qu’une moyenne par région nous montre des disparités bien plus importantes quant à l’évolution du niveau de bonheur dans le monde au cours des dernières années.

3. Les pays dont le niveau de bonheur a le plus augmenté au cours des dernières années

La visualisation suivante s’attache aux pays ayant connu une hausse de leur score de bonheur entre 2015 et 2021. Elle représente les 10 taux d’accroissement de ce score les plus importants, en prenant le score de 2015 comme référence (un taux d’accroissement de 20% signifie donc qu’en 2021, le score de bonheur du pays est 20% plus élevé qu’en 2015)

<<<<<<< HEAD

Voyons maintenant le résultat pour les pays dont le score a le plus chuté entre 2015 et 2021:

=======

Voyons maintenant le résultat pour les pays dont le score a le plus chuté entre 2015 et 2021:

4. Le score de bonheur moyen par région chaque année

La visualisation suivante représente l’évolution au cours des années du score de bonheur moyen de chaque région. Non, ces graphes ne sont pas identiques ;) L’intérêt principal de ce graphique est de constater en un coup d’oeil que les scores moyens par régions restent très stables. Les régions ont été ordonnées par ordre décroissant, de la région possédant le meilleur score à celle possédant le moins bon.

5. Classement [à déplacer]

>>>>>>> c7c75064e14b028cfc3fb2baabdc796a4ac9f2f1

II) Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ?

Dans cette partie, le but est de déterminer si le bonheur a des préférences géographiques, et d’identifier les critères qui rendent les populations de régions spécifiques plus heureuses que les autres.

Les visualisations réalisées

  1. Un boxplot qui indique la distribution des scores de bonheur de chaque région

  2. Une carte du monde colorée par région en fonction du score de bonheur (avec ggmap ou leaflet)

  3. Faire des scatterplots pour les différents critères en fonction du niveau de bonheur par région (moyenne sur toutes les années ou évolution dans le temps ?)

La distribution des scores de bonheur de chaque région chaque année

La visualisation du boxplot nous permet de situer rapidement les scores de bonheurs des pays d’une même région. On constate en un coup d’oeil que les 3 régions du monde les plus heureuses sont la Nouvelle Zélande, l’Amérique du Nord et l’Europe de l’Ouest.

<<<<<<< HEAD
=======
>>>>>>> c7c75064e14b028cfc3fb2baabdc796a4ac9f2f1